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基于 CEEMD 的 LSTM fll ARIMA 模型 
干旱 预测 适用 性 研究 
一 一 以 新 疆 为 例 
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摘 要 : 干旱 的 频繁 发 生 对 农业 生产 和 经 济 发 展 造成 了 不 可 忽视 的 危害 ,准确 预测 干旱 的 发 生 具 有 重要 的 现实 意 
义 。 基 于 1960 一 2019 年 新 疆 气象 站 点 的 逐日 降水 量 数据 ,计算 1.3、6、9、12 个 月 及 24 个 月 时 间 尺 度 的 标准 化 降水 
指数 。 建 立 差分 自 回 归 移 动 平均 模型 (Autoregressive Integrated Moving Average, ARIMA) .长 短期 记忆 网 络 (Long 
Short- Term Memory, LSTM) , 4. 补 集合 经 验 模 态 分 解 (Complementary Ensemble Empirical Mode Decomposition , 


CEEMD )-ARIMA 组 合 模型 和 CEEMD-LSTM 组 合 模型 。 通 


过 4 种 模型 对 多 时 间 尺 度 SPI 序 列 进行 预测 ,确定 各 模型 


在 干旱 预测 中 的 适用 性 。 结 果 表 明 :(1) 4 种 模型 的 预测 精度 均 随 时 间 尺 度 的 增加 而 逐渐 提高 ,在 24 个 月 时 间 尺 度 


时 达到 最 高 ;(2) CEEMD 能 够 有 效 平稳 时 间 序 列 , 各 时 间 


尺度 下 ,组 合 模型 均 达 到 了 较 高 的 预测 精度 , 相 较 单一 模 


型 更 适用 于 干旱 预测 ; (3) 4 种 模型 预测 结果 精度 由 低 到 高 分 别 为 :LSTM , ARIMA .CEEMD-LSTM .CEEMD-ARIMA 
(决定 系数 最 大 值 分 别 为 :0.8882 .0.9103 .0.9403 .0.9846) ,CEEMD-ARIMA 模型 相 比 其 他 3 种 模型 效果 较 好 ,最 适用 


于 干旱 预测 。 
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干旱 对 农业 生产 .经 济 运行 、 现 代 生 活 造成 的 
危害 与 日 俱 增 ,也 使 得 在 气候 变化 过 程 中 确保 用 水 
安全 能源 安全 粮食 安全 变 得 更 加 困难 。 近 百年 
来 ,中 国 陆地 区 域 平均 增 温 0.9~1.5 °C, 且 气温 将 在 
未 来 持续 上 升 ,年 均 降 雨量 虽 未 见 显著 变化 ,但 不 
同 区 域 的 降雨 量 差异 日 趋 明显 ,由 此 可 预见 大 范围 
于 旱 的 发 生 频 次 将 会 增加 、 强 度 将 会 增强 一 。 随 着 
极端 天 气 对 人 类 社会 影响 的 日 渐 显 著 , 如 何 针对 极 
端 天 气 的 发 生 进 行 准确 评估 ,监测 和 分 析 ,成 为 了 
国内 外 学 者 关注 的 重点 问题 。 

现 阶段 ,相关 研究 常 使 用 干旱 指数 对 干旱 发 生 
的 程度 、 持 续 时 间 和 影响 范围 进行 定量 评价 “”。 目 
前 ,学 界 多 使 用 的 评价 指标 有 标准 化 降水 指数 
(Standardized Precipitation Index , SPI) 、 帕 默 尔 干旱 
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间 数 (Plamer Drought Severity Index ,PDSI) 和 综合 干 
旱 指 数 (Composite Index, CI) “2 。 其 中 SPI 可 用 于 多 
种 时 间 尺 度 下 的 干旱 分 析 ,干旱 分 级 精度 高 且 仅 用 
降水 数据 即 可 计算 ,因而 广泛 应 用 于 干旱 研究 ”" 。 
降水 量 数据 和 由 此 计算 得 到 的 SPI 具 有 非 平 稳 SE 
线性 的 特征 。 应 用 这 一 数据 进行 预测 ,难以 达到 精 
准 的 预测 效果 。 信 号 分 解 能 够 提取 序列 的 局 部 特 
征 并 使 序列 平稳 ,国内 外 学 者 通过 经 验 模 态 分 解 
(Empirical Mode Decomposition , EMD) 、 集 合 经 验 模 
态 分 解 (Ensemble Empirical Mode Decomposition , 
EEMD) .互补 集合 经 验 模 态 分 解 (Complementary 
Ensemble Empirical Mode Decomposition ,CEEMD ) 对 
时 间 序 列 进行 分 解 , 得 到 了 一 组 较为 平稳 的 分 量 和 
一 个 趋势 项 ,降低 了 原始 时 间 序 列 的 复杂 度 ,提高 
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了 可 预测 性 中。 在 干旱 预测 的 过 程 中 ,用 于 预测 
的 模型 有 很 多 ,如 差分 自 回 归 移 动 平均 模型 (Au- 
toregressive Integrated Moving Average, ARIMA), A 
工 神经 网 络 (Artificial Neural Network, ANN) 支持 
[5] 5& BL (Support Vector Machine ,SVM) 等 ,其 中 ARI- 
MA 模型 是 最 常见 的 用 于 时 序 预 测 的 模型 中 。 随 
着 机 器 学 习 的 发 展 ,长 短期 记忆 (Long Short-Term 
Memory, LSTM) 网络 在 时 间 序 列 预测 中 得 到 了 应 
用 ,LSTM 在 处 理 具 有 很 长 间隔 和 延迟 的 序列 上 具 
有 优势 "1。 单 一 模型 在 时 间 序 列 的 预测 中 容易 出 
现 局 部 最 优 的 情况 ,预测 效果 不 理想 ,因此 ,许多 学 
者 将 信号 分 解 与 预测 模型 组 合用 于 时 序数 据 的 预 
W, fh dr EMD- LSTM '* , EEMD- ARIMA ™ , EEMD- 
LSTM ?" , CEEMD-LSTM ^ 2545: 38] T EXU B RU DU 2 
果 。 有 目前 ,对 于 组 合 模型 预测 结果 适用 性 的 评价 和 对 
比 大 多 是 组 合 模型 与 传统 ARIMA 模型 的 对 比 P2 , 缺 
乏 组 合 模型 之 间 的 对 比 、 组 合 模型 与 LSTM 的 对 
比 。 新 技术 新 方法 是 否 优 于 传统 方法 仍 待考 证 。 
CEEMD fif T EMD 模 态 的 混 县 问题 以 及 EEMD f 
态 的 残留 白 噪声 问题 ,因此 ,本 文 基于 CEEMD 构建 
CEEMD- ARIMA 组 合 模 型 和 CEEMD-LSTM 组 合 模 
型 。 分 别 通 过 ARIMA, LSTM, CEEMD- ARIMA 和 
CEEMD-LSTM 模 型 进行 预测 ,对 其 结果 进行 分 析 对 
比 , 人 研究 其 在 干旱 预测 中 的 适用 性 。 

本 文选 取 新 疆 32 个 站 点 的 1960 一 2019 年 逐日 
降水 量 数据 ,计算 1.3.6.9、12 个 月 及 24 个 月 时 间 
尺度 SPI。 利 用 ARIMA LSTM .CEEMD-ARIMA 和 
CEEMD-LSTM 组 合 模型 对 各 SPI 序 列 进行 预测 。 通 
过 对 4 种 模型 预测 结果 和 实际 计算 值 的 对 比 ,结合 
决定 系数 (Coefficient of Determination, R°) 、 均 方 根 
误差 (Root Mean Square Error, RMSE) .平均 绝对 误 
差 (Mean Absolute Error, MAE )3 种 评价 指标 ,分析 4 
种 模型 的 干旱 预测 精度 。 结 合 ArcGIS 的 经 验 贝 叶 
斯 克 里 金 插值 法 ,展示 4 种 模型 预测 的 干旱 空间 分 
布 情况 。 从 模型 预测 结果 的 精度 和 空间 分 布 情况 
探索 模型 在 干旱 预测 中 的 适用 性 ,以 期 能 为 气象 防 
灾 减 灾 工 作 提供 决策 依据 ,减少 旱灾 损失 。 


1 数据 与 方法 


1.1 研究 区 概况 及 数据 来 源 
新 疆 地 处 欧 亚 大 陆 腹地 ,地理 坐 标 位 为 73"40'~ 
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96°18'EE、34%25'~48°10'N, 自 北向 南 有 阿尔 泰山 、 天 
山 和 昆仑 山系 ,是 “三 山 夹 两 例 ” 的 地 貌 格局 。 该 区 
远离 海洋 ,降水 稀少 ,干旱 频 发 ,是 典型 的 干旱 半 干 
旱地 区 。 人 研究 区 域 的 地 理 位 置 及 气象 站 点 分 布 如 
图 1 所 示 。 本 文 所 用 的 逐日 降水 量 数据 来 源 于 国家 
气象 科学 数据 中 心 (http://data.cma.cn/) 中 新 疆 气 象 
站 观测 数据 。 所 用 新 疆 地 理 高 程 数据 来 源 于 地 理 
zs [a] ACHE ZS (http://www.gscloud.en/search ) o 


72?0'E 76°30'E $81?0'E 85?30'E 900E  94?30'E 
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注 : 底 图 采用 自然 资源 部 标准 地 图 制作 , 审 图 号 为 
GS(2019)3333 号 ,对 底 图 边界 无 修改 。 下 同 。 
图 1 新 疆 气象 站 点 分 布 


Fig. 1 Distribution of meteorological stations in Xinjiang 


1.2 研究 方法 

1.2.1 标准 化 降水 指数 ”降水 量 是 影响 干旱 的 重要 
因素 。 标 准 化 降水 指数 考虑 了 降水 量 分 布 为 偏 态 
分 布 的 情况 ,假定 降水 量 分 布 服从 TI 分 布 ,计算 出 降 
水 量 的 分 布 概率 ,之 后 进行 正 态 标准 化 处 理 , 将 处 
理 得 到 的 结果 依据 气象 干旱 等 级 (GB/T20481- 
2017) 中 的 干旱 分 级 标准 ,进行 干旱 等 级 划分 ( 表 
1)。SPI 能 够 计算 出 不 同时 间 尺 度 的 值 ,满足 多 种 
水 资源 状况 监测 的 需要 ,其 中 1、3、6、9、12、24 个 月 


表 1 SPI 干 旱 分 级 
Tab.1 Drought classification based on SPI 


SPI y E 类 型 
SPI>-0.5 无 早 
—1.0<SPI< -0.5 轻 早 
-L5«SPI« -1.0 p 
-2.0<SPI< -1.5 重 早 
SPI< -2.0 特 旱 
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时 间 尺 度 下 的 SPI 可 用 于 描述 区 域 的 气象 干旱 \ 农 
WE 水 文 干旱 情况 。SPI 易 于 计算 ,具体 计 
算 过 程 参见 气象 干旱 等 级 (GB/T20481-2017 ) 。 
1.2.2 CEEMD 分 解 ”1998 年 ,Huang 56 5 JE H T 
EMD, EMD 在 处 理 非 线性 . 非 平稳 信号 上 具有 优 
势 。 原 始 序列 输入 EMD 进行 分 解 能 够 得 到 有 限 个 
fe] BRAS K% Intrinsic Mode Function,IMF) 和 趋 热 
项 ,各 分 量 包含 了 原始 序列 在 不 同 尺 度 上 的 局 部 特 
征 。 经 过 EMD 分 解 后 的 结果 具有 相当 高 的 信 噪 比 ， 
但 这 种 分 解 方法 存在 模 态 混 番 的 问题 。EEMD 作为 
EMD 的 进一步 改进 ,通过 向 原始 信号 添加 高 斯 白 噪 
声 , 有 效 减 少 了 模 态 混 生 的 发 生 , 但 白 品 声 的 添加 ， 
使 各 分 量 售 有 残留 白 噪声 中。Yebh 等 站 提出 了 
CEEMD ,通过 向 原始 信号 中 添加 4 组 符号 相反 的 白 
噪声 ,减少 分 量 数 据 中 噪声 的 残余 量 ,达到 残余 白 
噪声 可 以 忽略 不 计 的 目的 ,其 算法 步骤 如 下 二 2 

(1) 向 原始 序列 Br) PHILA n 28 £358 1E A RII 
负 噪声 的 辅助 白 品 声 , 从 而 得 到 正 噪声 序列 H, 和 负 
噪声 序列 A, ,此 时 得 到 的 序列 总 数 为 2n。 

|- -R 

(2) 将 得 到 的 序列 分 别 进行 分 解 , 得 到 mm 个 
IMF 分量, 每 组 分 量 记 为 C;(1) 和 Cj() ,其 中 二 1， 
Den; jl ms 

(3) 对 每 组 IMF 分 量 的 C (0) 和 C5 (2) 取 平 均 
值 ,得 到 第 j 个 IMF 的 值 。 


IMF, = 2, 2460 +C;(0)| 


(1) 


(2) 


(4) 将 得 到 的 IMF 值 作为 最 终 分 解 结果 , 即 原 
始 序列 分 解 为 : 


BO= SIME (0) +r(t) 


SUH: r(t) 为 残留 趋势 项 。 

1.2.3 LSTM 网络 LSTM 网 络 是 一 种 特殊 的 循环 神 
经 网 络 (Recurrent Neural Network ,RNN ) ,能 够 学 习 
数据 传递 中 长 期 依赖 的 信息 ,并 有 效 解决 梯度 问 
题 。LSTM 网 络 有 着 比 RNN 更 复杂 的 重复 模块 (图 
2) ,其 中 otanh 分 别 为 sigmoid PA ZAI X H IE Y eK 
数 。 细 胞 状态 是 这 个 重复 的 神经 网 络 模块 链 的 关 
键 , 即 穿 过 每 个 模块 的 水 平 线 , 它 类 似 于 传送 带 , 贯 
穿 了 整个 链条 ,保证 了 信息 传输 的 不 变性 。 通 过 
“PY”, LSTM 向 细胞 状态 添加 或 移 除 信息 。 遗 忘 门 
决定 了 要 从 细胞 状态 中 移 除 哪些 信息 ,这 是 由 1 个 
sigmoid 层 决定 的 。 输 入 门 用 来 更 新 状态 信息 ,由 两 
部 分 组 成 ,通过 sigmoid 层 决定 哪些 信息 需要 更 新 ， 
并 在 tanh 创建 1 个 包含 新 的 待 添加 信息 的 向 量 , 由 
此 对 细胞 状态 进行 更 新 。 输 出 门 用 sigmoid 层 决定 
了 要 输出 的 细胞 状态 的 部 分 “。 通 过 运算 (图 2 的 
圆圈 部 分 ) ,将 结果 继续 传递 给 下 1 个 单元 结构 。 
1.2.4 ARIMA 模型 ”Box 等 ”提出 了 能 够 进行 非 平 
稳 非 白 噪 声 序列 预测 的 ARIMA 模型 ,通过 d 次 差分 
使 序列 平稳 ,然后 利用 自 回 归 请 动 平均 (Autoregres- 
sive Moving Average , ARMA ) 模 型 预测 。ARMA 模型 
假定 原始 序列 为 一 组 随机 序列 ,通过 改变 模型 的 参 
数 对 该 序列 近似 描述 , 选 出 最 符合 该 序列 的 模型 参 
数 ,之 后 依据 原始 数据 对 未 来 情况 进行 预测 ”3。ARI- 
MA (p,d,q) 模 型 的 一 般 式 为 


(3) 


Q 


tanh 
lo 
J 


注 :A 为 神经 网 络 模块 ;Xt 和 ht 分 别 为 :时 刻 LSTM 模 块 的 输入 和 输出 。 
图 2 LSTM 结 构图 
Fig.2 Structure diagram of LSTM 
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Y,2oY, ,*o,Y, ;++ o, I aT 

u, ~ 0u, -17 03u,- O (4) 
式 中 :为 时 间 序 列 值 ; of i= L2, p) M Oj 
1,2, «4 ) 分 别 为 自 回归 系数 和 滑动 平均 系数 ; u, 为 
白 噪声 序列 , H u,~N(0,0°) o 

ARIMA 模 型 的 建 模 流程 为 : 

(D 平稳 性 检验 。 本 文通 过 单位 根 检验 (Aug- 
mented Dickey- Fuller Test, ADF ) 判 断 时 间 序 列 的 平 
稳 性 汪 。 知 为 非 平稳 时 间 序 列 则 需 对 原始 序列 4 次 
差分 8 

(2) 确定 模型 阶 数 的 取 值 范围 。 根 据 数据 的 自 
TH 2& ek Zt (Autocorrelation Function , ACF ) 4i H TH 
X PKA (Partial Autocorrelation Function, PACF ) 确 定 
Pd 的 取 值 范围 。 

(3) 模型 定 阶 。 利 用 赤 池 信息 准则 (Akaike In- 
formation Criterion ,AIC)、 贝 叶 斯 信息 准则 (Bayesian 
Information Criterion , BIC ) 对 模型 定 阶 ,AIC 、BIC ZS 
式 如 下 : 

AIC(p,g)= Nino’ (p.q) +2(p +q + 1) 

BIC(p,q) =NIno*(p,q) *(p*q* Dln N 
式 中 :N 为 参数 个 数 。 选 择 AIC BIC 值 最 小 时 对 应 
Mp .q f& 
1.2.5 基于 CEEMD 的 pide 波动 性 强 的 原始 
序列 经 过 CEEMD 分 解 , 能 够 得 到 一 组 波动 较 低 的 
IMF 分 量 , 这 提高 了 序 儿 的 可 预测 性 。 通过 Python, 
将 CEEMD 分 别 与 LSTM 和 ARIMA 模型 结合 组 成 
CEEMD-LSTM 组 合 模 型 和 CEEMD-ARIMA 组 合 模 
型 。 通 过 组 合 模 型 进行 预测 的 步骤 如 下 : 

(1) CEEMD 分解 。 通 过 CEEMD 对 原始 SPI 序 
列 进行 分 解 , 得 到 从 高 频 到 低频 的 IMF1 IMF2、… 
IMFn 以 及 Res。 

(2) LSTM 或 ARIMA 模型 预测 。 将 IMF1、 
IMF2、…* .IMFn 以 及 Res 分 别 导 入 LSTM 或 ARIMA 
模型 进行 预测 ,预测 结果 分 别 记 为 Pl1、P2、 
Pnt+l。 

(3) 对 预测 结 


(5) 


吉 果 相 加 求 和 。 
n*l 
P-YP, (6) 
i=l 
FEF CEEMD 的 组 合 模型 建 模 流 程 如 图 3 所 示 。 
1.2.6 评价 指标 本 文选 取 RMSE MAE, REN 4 


种 模型 的 评价 指标 。RMSE 和 MAE 的 取 值 范围 为 
[0, +o ] , 值 越 小 ,模型 效果 越 好 。 屁 越 大 ,表示 拟 
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原始 SPI 时 间 序 列 


CEEMD 分 解 SPI 序 列 
Y Y 
IMF1 IMF2 | … IMFn Res 
Y Y Y Y 
LSTM 或 ARIMA 模 型 预测 


ES Cp DD) ps Pra 


lm 
组 合 模型 预测 结果 


v 


通过 预测 评价 指标 RMSE、MAE、R? 
对 模型 预测 结果 进行 评价 


图 3 组 合 模 型 建立 流程 
Fig.3 Workflow of combined model 


合 效 果 越 好 ,最 大 值 为 1。 
(7) 
MAE- X 3s. 5| (8) 
Y») - Mn-») 
R= i=1 ~ i=l : (9) 
2.6.77) 
式 中 : x, 是 观测 值 ; y; 是 真实 值 ; 了 是 y, 的 平均 值 ; 


y; 为 预测 值 ; N 为 样本 数 。 
2 结果 与 分 析 


2.1 LSTM 网 络 模型 训练 及 预测 

本 文 以 库尔勒 站 点 为 例 , 利 用 LSTM 网 络 模型 
对 1、3、6.9、12 个 月 及 24 个 月 时 间 尺 度 SPI 序 列 进 
行 建 模 ,步骤 如 下 : 

(1) 数据 归 一 化 处 理 

对 输入 的 SPI 数 据 进行 归 一 化 处 理 , 以 提高 模 
型 的 训练 速度 。 

(2) 网 络 模型 训练 

LSTM 网 络 的 激活 函数 通常 有 sigmoid , tanh 和 
ReLU. sigmoid 存在 着 随 神 经 网 络 层 数 加 深 ,梯度 
后 向 传播 到 浅 层 网 络 时 易 出 现 梯度 消失 的 缺点 ; 
tanh 也 存在 梯度 消失 的 情况 , 且 sigmoid 和 tanh 的 随 
机 梯度 下 降 收敛 速度 较 慢 ,因此 激活 函数 选用 了 
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ReLU。1 次 训练 选取 的 样本 数 为 1, 即 每 训练 1 个 样 
本 ,更 新 1 次 权重 。 损 失 陶 数 则 采用 均 方 误差 
(Mean Squared Error, MSE) ,优化 算法 采用 了 Ad- 
am。 通 过 “ 早 停 法 ”防止 训练 过 拟 合 , 即 随 着 迭代 次 
数 增加 ,MSE 逐渐 下 降 ,模型 精度 逐渐 提高 ; 当 MSE 
值 上 升 时 ,停止 训练 。 为 确保 模型 精度 达到 最 高 ， 
迭代 次 数 设置 为 300。 采 用 了 黄金 分 割 法 选择 隐藏 
神经 元 数量 ,隐藏 层 神经 元 数 为 25"”。 

(3) 输出 预测 数据 

由 于 之 前 对 数据 进行 了 归 一 化 处 理 , 因 此 ,此 
处 需要 采取 反 归 一 化 处 理 , 以 得 到 模型 的 实际 预测 
数据 (图 4)。 
2.2 ARIMA 模型 建 模 及 预测 

依据 32 个 气象 站 点 1960 一 2019 年 的 逐日 降水 


量 数据 进行 SPI 计 算 。 不 同时 间 尺 度 的 SPI 适 用 于 
干旱 研究 的 不 同方 面 ,因此 本 文 计算 了 1、3、6、9、 
12、24 个 月 共 6 个 时 间 尺 度 的 SPI。 将 计算 得 到 的 
SPI 中 1960 一 2007 年 数据 作为 训练 集 ,2008 一 2019 
年 数据 作为 测试 集 。 本 文 以 库尔勒 站 点 为 例 对 
ARIMA 建 模 , 在 预测 前 ,需要 对 测试 集 数 据 的 平稳 
性 进行 判断 。 若 数据 平稳 , 则 可 通过 ARMA 模 型 进 
行 预测 ; 若 不 平稳 , 则 需 进 行 差 分 ,ADF 检验 结果 见 
表 2。 表 2 中 6 个 时 间 尺 度 SPI 的 P 值 均 小 于 0.05, 即 
时 间 序 列 均 为 平稳 时 间 序 列 , 因 此 ,可 进行 下 一 步 。 

通过 ACF、PACF 确 定 各 时 间 序 列 p、g 的 可 能 
值 。 利 用 AIC、BIC 准 则 选取 最 优 模型 。 各 序列 的 模 
型 定 阶 结果 见 表 3。 分 别 通过 6 个 时 间 尺 度 SPI 的 
最 优 模型 进行 预测 ,预测 结果 见 图 4。 


一 一 SPI 实 际 值 ”一 一 LSTM 预 测 值 ”一 一 ARIMA 预 测 值 一 一 CEEMD-LSTM 预 测 值 一 一 CEEMD-ARIMA 预 测 值 
T T T T] [T T T T T T T T T T T 
3 4j 3 上 3 上 4 3 上 
E 2 4j 2 上 2 上 4 2r 
1 j 1H 1 上 4 1H 
7? Q oF 0r 0r 
= 4 -1+ -lr j at 
L I I Li LL L L L L L L I L L L L 
2008 2012 2016 2020 2008 2012 2016 2020 2008 2012 2016 2020 2008 2012 2016 2020 
3 F T T T] 3 [T T T I 3 T T 3 E T T T 
4j 2 上 2 上 4 2 上 
E I 1 IF 1r 1 IF 
zz 0 上 0r 4 OF 
1 上 -lr 4 at 
2 LL fi 1 i -2 C 1 1 O -2 C 1 1 i 
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图 4 LSTM,ARIMA ,CEEMD-LSTM 与 CEEMD-ARIMA 模 型 多 时 间 尺 度 SPI 预 测 (2008 一 2019 年 ) 
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Fig.4 Forecast of multi-time scale SPI ofLSTM, ARIMA, CEEMD-LSTM and CEEMD-ARIMA model (2008-2019) 
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#2 原始 序列 单位 根 检验 
Tab.2 ADF test of the original sequence 


SPI 序 列 单位 根 检 验 WE P 值 
1% 5% 10% 
SPI1 -8.0407 -3.4419 -2.8667 -2.5695 1.8500e-12 
SPI3 -9.4801 -3.4419 -2.8666 -2.5695 3.8938e-16 
SPI6 -6.7711 -3.4420 -2.8667 -2.5695 2.6407e-09 
SPI9 -4.4529 -3.4423 -2.8668 -2.5696 0.0002 
SPI12 -4.0259 -3.4423 -2.8668 -2.5696 0.0013 
SPI24 -3.8011 -3.4425 -2.8669 -2.5696 0.0029 
#3 6 NRE SPIK ARIMA 模型 定 阶 B R N 
Tab. 3 ARIMA model order based on SPI values A gm od 1380. 1990. 200 J00. 200 
of six time scales 
SPI 序 列 p d q AIC BIC = [sten eniti eo 
SPI 1 O 0 1752561 1766295 1960 1970 1980 1990 2000 2010 2020 
SPI3 0 0 2  151L10 — 1529410 gk 
SPI6 4 0 1 1274.699 1306.696 E s: Delft timers, 
bn 5 ð ae mee 1960 1970 1980 1990 2000 2010 2020 
SPI12 2 0 1 648.904 671.716 - 1 EW A NV wNv A WW 
oe 2o M EM. m loco 1970 1980 1990 2000 2010 2020 
+ 1 
23 利用 组 合 模型 对 SPI 序 列 进行 预测 5 o Vr WV 
经 过 参数 的 多 次 修改 和 对 比 , 最 终 选 定 将 Nstd s. Jm 1970 1980 1990 2000 2010 2020 
设置 为 0.2, NE 设置 为 100,TNM 设置 为 8。 FS E Nope ea UP UIN Pes 
CEEMD 分 解 多 尺度 SPI, 得 到 8 个 IMF 分 量 和 1 个 趋 “1960 1970 1980 1990 2000 2010 2020 
势 项 。 以 SPI3 分 解 为 例 , 原 始 序列 和 分 解 得 到 的 子 Es 2 n e c e d 
序列 见 图 5。 由 图 5 可知 ,原始 序列 波动 范围 较 大 ， n 71960 1970 1980 1990 2000 2010 2020 
而 分 解 得 到 的 IMF 分 量 波动 范围 较 小 , 随 着 分 解 的 © 02 
逐步 进行 ,分 量 的 波动 趋 于 平缓 ,说 明 通 过 CEEMD E 02 a 
分 解 能 够 降低 原始 序列 的 非 平稳 性 。 om 1970 1980 1990 2000 2010 2020 


选取 1960—2007 年 数据 作为 训练 集 , 2008— 
2019 年 数据 作为 测试 集 。 利 用 组 合 模型 进行 预测 ， 
预测 结果 见 图 4。 由 图 4 可 知 ,在 1 个 月 时 间 尺 度 
下 ,LSTM 和 ARIMA 模型 的 预测 值 与 实际 观测 计算 
值 相差 较 大 。CEEMD-LSTM ffl CEEMD- ARIMA 组 
合 模 型 的 预测 值 与 实际 值 则 较 接 近 , 其 中 CEEMD- 
ARIMA 能 准确 预测 到 2011 年 的 干旱 发 生 强 度 。 TE 
3 个 月 尺度 下 ,2 个 单一 模型 的 预测 值 与 实际 值 差距 
缩小 ,预测 的 SPI 变 化 趋势 与 实际 趋势 相符 。 此 时 ， 
CEEMD-ARIMA 已 能 准确 预测 2011 年 和 2017 年 的 
于 旱情 况 ,整体 预测 结果 与 实际 情况 最 为 一 致 。 在 
6 个 月 尺度 下 ,与 LSTM 相 比 ,ARIMA 模型 对 干旱 发 
生 时 间 和 强度 的 预测 更 为 准确 。4 个 模型 中 ,ARI- 


IMF8 
ou 
| 


L 1 L 1 1 L 


1960 1970 1980 1990 2000 2010 2020 
, 05 
a 9 hae 
-0.5 
1960 1970 1980 1990 2000 2010 2020 
年 份 


图 5 CEEMD 分 解 SPI3 序列 
Fig. 5 CEEMD decomposition results of SPI3 sequence 


MA fll CEEMD-ARIMA 模型 对 干旱 的 预测 较 精 准 。 
在 9 个 月 尺度 和 12 个 月 尺度 下 , 除 LSTM 外 的 其 他 3 
种 模型 预测 情况 接近 实际 情况 , 较 1.3.6 个 月 尺度 
下 ,对 干旱 事件 的 发 生 及 强度 和 持续 时 间 的 预测 更 
为 准确 。 在 24 个 月 尺度 下 ,4 种 模型 的 预测 结果 与 
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实际 情况 近 平一 致 ,从 干旱 发 生 强 度 的 预测 情况 来 
看 ,ARIMA 和 CEEMD-ARIMA 模型 的 预测 结果 分 别 
优 于 LSTM 和 CEEMD-LSTM 模型 。 对 模型 在 6 个 时 
间 尺 度 SPI 的 预测 结果 进行 对 比 ,在 1 个 月 时 间 尺 度 
下 ,4 种 模型 的 预测 结果 均 为 6 个 时 间 尺 度 中 最 差 
的 ,与 实际 结果 相差 最 大 。 随 着 时 间 尺 度 的 增 大 ,4 
种 模型 预测 的 准确 性 有 所 提升 。 

i jt R RMSE MAE 共 3 种 评价 指标 对 预测 结 
果 进 行 评 价 ,进一步 分 析 4 种 模型 的 预测 精度 。 表 4 
中 LSTM 在 SPIl 的 RMSE MAE 值 分 别 为 0.8681 和 
0.6478 , 随 着 时 间 尺 度 的 增加 RMSE , MA E 值 逐 渐 减 
小 。 在 24 个 月 时 间 尺 度 下 达到 最 小 ,SPI24 的 
RMSE, MAE 值 分 别 为 0.4266 FI 0.2700, R(E Dl] Œ 
现 相反 趋势 ,表明 随 着 时 间 尺 度 增 大 ,模型 的 预测 
精度 逐渐 提高 。ARIMA .CEEMD-ARIMA ,CEEMD- 
LSTM 模型 预测 精度 随时 间 尺 度 的 变化 趋势 与 
LSTM 一 致 。 对 各 时 间 尺 度 SPI 进 行 预测 ,ARIMA 模 


RA 4 种 模型 预测 结果 的 RR、RMSE、MAE 值 
Tab.4 R’, RMSE and MAE values of the 
predicted results of four models 


时 间 尺 度 模型 R RMSE MAE 
1 个 月 LSTM -0.0146 0.8681 0.6478 
ARIMA -0.0058 0.8643 0.6431 
CEEMD-LSTM 0.2648 — 0.7389 0.5683 
CEEMD-ARIMA . 0.4488 0.6398 0.4828 
3 个 月 LSTM 0.4200 0.7906 0.6040 
ARIMA 0.4986 0.7350 — 0.5531 
CEEMD-LSTM 0.5782 0.6742 0.5017 
CEEMD-ARIMA . 0.8246 0.4347 0.3355 
6 个 月 LSTM 0.6686 0.6595 0.4710 
ARIMA 0.6870 0.6410 0.4554 
CEEMD-LSTM 0.7776 0.5402 04116 
CEEMD-ARIMA . 0.9153 0.3334 0.2397 
9 个 月 LSTM 0.7873 0.5732 0.3856 
ARIMA 0.8039 0.5503 0.3553 
CEEMD-LSTM 0.8021 0.4082 0.2839 
CEEMD-ARIMA 0.9619 0.2426 0.1789 
1245 LSTM 0.8592 0.4858 0.3084 
ARIMA 0.8732 0.4610 0.2628 
CEEMD-LSTM 0.9302 0.3420 0.2251 
CEEMD-ARIMA — 0.9793 0.1863 0.1271 
24^ H LSTM 0.8882 0.4266 | 0.2700 
ARIMA 0.9103 0.3822 0.2109 
CEEMD-LSTM 0.9403 0.3119 — 0.1958 


CEEMD-ARIMA 0.9846 — 0.1584 0.1019 


型 预测 结果 的 尼 值 均 略 高 于 LSTM,RMSE、MAE 的 
值 则 均 略 低 于 LSTM ,说 明 ARIMA 模型 的 预测 精度 
优 于 LSTM。CEEMD-LSTM 和 CEEMD-ARIMA 模型 
的 尼 值 在 各 时 间 尺 度 均 高 于 单一 模型 ,LSTM ARI- 
MA .CEEMD-LSTM 和 CEEMD-ARIMA 模型 在 SPI24 
的 尼 值 分 别 为 0.8882 .0.9103 .0.9403 和 0.9846, Ft 
中 ,CEEMD-ARIMA 模型 除 对 SPII 的 预测 结果 外 ,RR 
值 均 在 0.8 以 上 ,具有 较 高 的 预测 精度 。 在 各 个 时 
HREF ,预测 精度 从 低 到 高 为 :LSTM、ARIMA、 
CEEMD-LSTM , CEEMD- ARIMA 模型 ,说 明 ARIMA 
的 预测 精度 高 于 LSTM,CEEMD 能 够 有 效 提高 模型 
的 预测 精度 。 

使 用 ArcGIS 对 32 个 站 点 在 2019 年 SPI 的 实际 
观测 计算 值 和 预测 值 进行 可 视 化 展示 (图 6)。 由 于 
新 疆 的 干旱 在 一 年 四 季 皆 有 发 生 ,此 处 选择 能 够 进 
行 降雨 量 季节 变化 分 析 的 SPI3 对 区 域 干旱 情况 进 
行 展示 。 从 图 6 中 可 以 看 出 ,CEEMD-ARIMA 组 合 
模型 对 干旱 空间 分 布 情况 的 预测 与 实际 情况 最 为 
接近 。2019 年 2 月 的 北 疆 降 水 量 偏 多 ,全 疆 其 余 大 
部 分 偏 少 。4 种 模型 在 冬季 的 预测 情况 与 实际 情况 
都 存在 着 偏差 ,其 中 CEEMD-ARIMA 组 合 模型 的 预 
测 结果 与 实际 计算 结果 较为 一 致 。 


3 讨论 


SPI 时 间 序 列 是 非 平 稳 序 列 ,而 单一 模型 预测 
结果 的 精度 受 原始 数据 平稳 性 影响 较 大 。Liu SE 
利用 ARMA 对 山东 省 5 个 站 点 的 SPI9 序列 进行 预 
测 ,预测 结果 的 平均 相对 误差 最 低 为 20.39% ,最 高 
为 43.69% ,预测 精度 较 低 且 不 同 站 点 间 存 在 很 大 差 
异 。 单 独 通过 LSTM 预测 SPL, 同样 有 着 较 差 的 预测 
BEER CEEMD 分 解 能 够 为 模型 预测 提供 平稳 性 ， 
从 而 提高 序列 的 可 预测 性 呈 。 通 过 CEEMD 分解 ， 
原始 序列 在 不 同 尺度 的 局 部 特征 被 提取 出 来 , 非 平 
稳 时 间 序 列 转化 为 平稳 的 分 量 。 因 此 ,本 研究 利用 
CEEMD 降低 SPI 序列 的 非 平稳 性 ,确保 LSTM 和 
ARIMA 模型 能 饮 有 效 预 测 SPI 序 列 。 

在 4 种 模型 的 预测 结果 中 ,SPI1 的 预测 精度 相 
较 于 其 他 5 个 时 间 尺 度 最 差 。 数 据 的 平稳 性 与 预测 
结果 有 密切 关系 ,1 个 月 时 间 尺 度 的 数据 量 是 6 个 时 
间 尺 度 中 最 大 的 ,并 且 数 据 序列 趋 于 严 平稳 ( 序 列 
的 分 布 结构 不 随时 间 改 变 ) , 随 着 时 间 尺 度 的 增 大 ， 
数据 量 减少 ,并 且 数 据 序列 趋 于 宽 平 稳 ( 未 来 值 与 
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(d) LSTM (e) CEEMD-LSTM 


0.51 


图 6 使 用 克 里 金 插值 对 实际 值 和 4 种 模型 的 预测 结果 可 视 化 展示 


Fig.6 Kriging interpolation results of the actual calculated values and the predicted values of four models 


过 去 值 相关 ) ,模型 的 预测 情况 变 好 。LSTM 在 高 频 
序列 的 预测 中 具有 较 高 的 预测 精度 ,ARIMA 在 低频 
序列 中 有 较 好 的 预测 效果 ,因此 ,LSTM 和 ARIMA 模 
型 分 别 适 用 于 高 频 序列 和 低频 序列 的 预测 ,同时 也 
造成 了 LSTM 在 SPI 序 列 预测 中 预测 效果 略 差 于 
ARIMA 9 * ,, CEEMD 分解 得 到 的 子 序列 可 预测 
性 要 高 于 原始 序列 ,因此 ,在 1 个 月 时 间 尺 度 下 ,2 个 
组 合 模 型 的 预测 情况 明显 优 于 单一 模型 的 预测 情 
况 。 在 3 个 月 和 6 个 月 时 间 尺 度 下 ,组 合 模型 优 于 
单一 模型 。 随 着 时 间 尺 度 的 增 大 ,优势 逐渐 缩小 ,长 
时 间 尺 度 的 SPI 序 列 集合 了 原始 数据 中 更 多 的 信息 ， 
整个 序列 趋 于 平稳 ,单一 模型 的 预测 精度 随 之 提高 。 

SPI 易 于 计算 , 旦 能 够 描述 地 区 的 气象 干旱 \ 农 
业 干 星 、 水 文 干旱 情况 ,但 对 于 新 疆 这 一 人 研究 区 而 
言 ,SPI 具 有 一 定 的 局 限 性 。 新 疆 农 业 所 耗 水 分 不 
仅 来 源 于 降水 ,也 来 源 于 当地 的 灌溉 用 水 。 地 下 水 
位 的 变化 与 山区 河流 径流 及 新 疆 农业 耗 水 有 着 很 
大 的 关系 。 干旱 的 发 生 是 多 种 因素 的 共同 作用 , 除 
降水 外 ,需要 考虑 的 因素 还 有 很 多 。 在 年 降水 量 未 
有 显著 变化 的 情况 下 , 随 着 全 球 温度 的 逐渐 上 升 ， 
于 旱 发 生 的 频次 势必 会 增加 。 因 此 , 若 只 考虑 降水 


素 的 影响 ,干旱 发 生 的 预测 将 会 变 得 越 来 越 困 
难 ,还 需 在 研究 中 考虑 多 种 因素 的 干旱 指数 在 干旱 
预测 中 的 适用 性 。 


4 结论 


本 文 分 别 利 用 LSTM , ARIMA .CEEMD-LSTM 和 
CEEMD-ARIMA 模型 对 1、3、6、9、12 个 月 及 24 个 月 
时 间 尺 度 的 SPI 进 行 预测 ,通过 对 预测 结果 的 对 比 
分 析 , 主要 得 到 以 下 结论 : 

(1) 4 种 模型 预测 精度 随时 间 尺 度 的 增 大 而 提 
高 , 即 在 1 个 月 尺度 下 最 低 , 在 24 个 月 尺度 下 最 高 ， 
此 时 尼 值 均 在 0.85 以 上 ,表明 4 种 模型 在 干旱 预测 
中 的 适用 性 随 着 时 间 尺 度 的 增 大 逐渐 提高 。 

(2) CEEMD-LSTM fil CEEMD-ARIMA 组 合 模 型 
在 1.3.6.9、12 个 月 及 24 个 月 时 间 尺 度 下 WAR 
比 单 一 模型 更 高 的 精度 。 说 明 CEEMD 在 处 理 非 平 
fa . 非 线性 数据 上 具有 优势 ,通过 CEEMD 分 解 , 原 
始 数据 序列 变 得 平稳 ,序列 的 可 预测 性 提高 。 

(3) CEEMD-ARIMA 模型 的 预测 精度 最 高 , 除 
SPIL 外 ,其 余 5 个 时 间 尺 度 的 尺 值 均 在 0.80 以 上 , 且 
在 SPI24 时 达到 了 0.98。CEEMD-ARIMA 模型 预测 
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的 干旱 空 


间 分 布 情况 与 实际 情况 较为 吻合 ,说 明 


CEEMD- ARIMA 模型 能 够 很 好 地 拟 合 不 同 尺度 的 


SPI FPS ,i 


适用 于 干旱 预测 。 
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Applicability of the LSTM and ARIMA model in drought prediction based 
on CEEMD: A case study of Xinjiang 


DING Yan, XU Dehe, CAO Lianhai, GUAN Xiangrong 


(1. College of Surveying and Geo-Informatics, North China University of Water Resources and Electric Power, 
Zhengzhou 450046, Henan, China; 2. E-Government Center of Natural Resources in Henan Province, 
Zhengzhou 450046, Henan, China) 


Abstract: The frequent occurrence of droughts seriously affects normal agricultural production and economic 
development. Accurate prediction of drought occurrence is of great importance in reducing drought losses. 
Nevertheless, drought occurrences have not been well predicted. Drought indices can be used to quantitatively 
evaluate the intensity, duration, and influence range of drought. Thus, on the basis of daily precipitation data from 
1960 to 2019 in the Xinjiang Uyghur Autonomous Region, the standardized precipitation index (SPI) at 
timescales of 1, 3, 6, 9, 12, and 24 months were calculated. Aiming for the nonlinear and nonstationary 
characteristics of SPI, a new drought prediction method was proposed combining the single model and the 
complementary ensemble empirical mode decomposition (CEEMD), which can process nonlinear and 
nonstationary signals. In this paper, the autoregressive integrated moving average (ARIMA) model, the long 
short-term memory (LSTM) network, the CEEMD-ARIMA combined model, and the CEEMD-LSTM combined 
model were constructed to predict a multiscale SPI. The validity of prediction models was determined using root 
mean square error, mean absolute error, and coefficient of determination (R’). Kriging interpolation was used to 
demonstrate the predicted results of the four models. The results revealed that the forecast accuracy of the four 
models increases with the increase of SPI timescales, and the highest accuracy is obtained at SPI24. CEEMD 
decomposition can effectively stabilize the time series. Drought prediction based on the CEEMD provides a 
stable premise for the single model. At each timescale, combined models obtain higher prediction accuracy than 
single models, which indicates that combined models are more suitable for drought prediction. The forecast 
accuracy of the four models in order from the lowest to highest accuracy is the LSTM model, followed by the 
ARIMA, CEEMD-LSTM, and CEEMD- ARIMA models (the maximum R? values are 0.8882, 0.9103, 0.9403, 
and 0.9846, respectively). The CEEMD-ARIMA model shows the best ability to forecast SPI values. This study 
explored the applicability of four drought prediction models and provided a basis for meteorological disaster 
prevention and mitigation efforts. 

Keywords: complementary ensemble empirical mode decomposition; long short-term memory network; autore- 


gressive integrated moving average; standardized precipitation index; drought prediction; Xinjiang 


